“Conceitos Estatísticos para IA”
Prof. Adelaide Alves de Oliveira
- TURMA: FIAP-06IA
- EDUARDO MORARES
- EDUARDO SIQUEIRA DE LIMA
- GABRIEL SHIKAMA
- RICARDO KALIMANIS
Inicicalmente vamos instalar os pacotes, caso seja necessário, que serão usados no decorrer da análise
#ignorando alertas para não poluir a exibição do markdwon
options(warn =-1)
#lista de pacotes que iremos utilizar no projeto
Pacotes_Necessarios <- c("ggplot2","readr","dplyr", "corrgram","corrplot", "plotly","skimr","gridExtra","GGally","ggpubr")
#com base nos pacotes instalados crio uma variavel somente com os pacotes que não temos ainda para realizar a instalação
#dos pacotes que de fato não possuimos
PacotesNovos <- Pacotes_Necessarios[!(Pacotes_Necessarios %in% installed.packages()[,"Package"])]
if(length(PacotesNovos)){ install.packages(PacotesNovos)} else {print("Todos os Pacotes Estão Instalados")}
[1] "Todos os Pacotes Estão Instalados"
Carregando todas as as Bibliotecas mencionadas no passo anterior
lapply(Pacotes_Necessarios, require, character.only = TRUE)
Importando os Datasets de Wines Quality.
Lista DE - PARA das colunas
| ID |
ID (que não sera utilizado) |
| fixed acidity |
acidez_fixa |
| volatile acidity |
acidez_volatil |
| citric acid |
acido_citrico |
| residual sugar |
acucar_residual |
| chlorides |
cloretos |
| free sulfur dioxide |
fsd |
| total sulfur dioxide |
tsd |
| density |
densidade |
| pH |
PH |
| sulphates |
sulfatos |
| alcohol |
grau_alcolico |
| quality |
qualidade |
| Vinho |
Tipo |
#Criando uma variável nome_colunas que receberá os nomes das colunas que normalizaremos a fim de facilitar o resto da análise
nome_colunas <- c("id","acidez_fixa","acidez_volatil","acido_citrico","acucar_residual","cloretos", "fsd", "tsd","densidade","PH", "sulfatos","grau_alcolico","qualidade","tipo")
#uso da biblioteca readr é para obter uma performance de carga melhor que a lib padrão do R
#e escolhemos o read_csv2 justamente pelo fato do arquivo estar separado por ; ao invés de ,
#o separador decimal também não é o . que é convencional e este comando ja os converte facilmente
#skip = 1 para ignorar o cabecalho que mudamos para melhor entendimento
vinhos <- read_csv2("./DataSets/BaseWine_Red_e_White.csv" ,col_names = nome_colunas, skip = 1)
Adicionando uma classificação de bom ou ruim de acordo com sua nota, onde menor que 5 é ruim até 7 bom e acima disso excelente
#converte tipo paara fator
vinhos$tipo <- factor(vinhos$tipo, ordered = T)
#Criando uma coluna de Ranking para dizer o quão bom é o vinho
vinhos$rating <- factor(ifelse(vinhos$qualidade <= 5, 'Ruim', ifelse(vinhos$qualidade <= 7, 'Bom', 'Excelente')))
Exibindo os dados das dimensões, sumário, estrutura e as primeiras linhas do DataFrame Vinhos
attach(vinhos)
skim(vinhos[, names(vinhos) != "id"] )
Skim summary statistics
n obs: 6497
n variables: 14
-- Variable type:factor --------------------------------------------------------
variable missing complete n n_unique top_counts ordered
rating 0 6497 6497 3 Bom: 3915, Rui: 2384, Exc: 198, NA: 0 FALSE
tipo 0 6497 6497 2 WHI: 4898, RED: 1599, NA: 0 TRUE
-- Variable type:numeric -------------------------------------------------------
variable missing complete n mean sd p0 p25 p50 p75 p100 hist
acidez_fixa 0 6497 6497 7.22 1.3 3.8 6.4 7 7.7 15.9 ▁▇▇▂▁▁▁▁
acidez_volatil 0 6497 6497 0.34 0.16 0.08 0.23 0.29 0.4 1.58 ▇▇▂▁▁▁▁▁
acido_citrico 0 6497 6497 0.32 0.15 0 0.25 0.31 0.39 1.66 ▂▇▂▁▁▁▁▁
acucar_residual 0 6497 6497 5.44 4.73 0.6 1.8 3 8.1 45.8 ▇▂▂▁▁▁▁▁
cloretos 0 6497 6497 0.056 0.035 0.009 0.038 0.047 0.065 0.61 ▇▁▁▁▁▁▁▁
densidade 0 6497 6497 0.99 0.003 0.99 0.99 0.99 1 1.01 ▂▇▇▅▁▁▁▁
fsd 0 6497 6497 30.53 17.75 1 17 29 41 289 ▇▃▁▁▁▁▁▁
grau_alcolico 0 6497 6497 10.49 1.22 0.96 9.5 10.3 11.3 14.9 ▁▁▁▁▆▇▃▁
PH 0 6497 6497 3.22 0.16 2.72 3.11 3.21 3.32 4.01 ▁▃▇▇▃▁▁▁
qualidade 0 6497 6497 5.82 0.87 3 5 6 6 9 ▁▁▆▇▁▃▁▁
sulfatos 0 6497 6497 0.53 0.15 0.22 0.43 0.51 0.6 2 ▅▇▂▁▁▁▁▁
tsd 0 6497 6497 115.74 56.52 6 77 118 156 440 ▅▆▇▃▁▁▁▁
Observa-se que:
- O campo
acucar_residual e fsd possuem um desvio padrão acima das demais variaveis
- A maioria dos histogramas apresenta uma distribuição normal entretanto não centralizado o que pode indicar a presença de outliers
Verificando valores nulos
sapply(vinhos, function(x)all(is.na(x)))
O resultado acima nos descreve que não há presença de nulos na base, isto é indicado pelo retorno FALSE em cada variável
Rotulos_Colunas <-c("id","acidez_fixa","acidez volatil" ,"acido citrico","acucar residual","cloretos","fsd","tsd","densidade",
"PH","sulfatos","grau alcolico","qualidade","tipo")
grafico_lista <- vector("list", length = length(Rotulos_Colunas)-2)
for(i in 2:13){
grafico_lista[[i-1]] <- plot_ly(x = as.formula(vinhos[i]), type = 'histogram', name = Rotulos_Colunas[i])
}
subplot(grafico_lista, nrows = 4)
NA
Podemos observar que apesar do desenho ser similar à uma distribuição normal, isso se deu pois mais à esquerda exceto grau alcoolico, que se sabe que não há vinhos com teor alcoolico abaixo de 6.5% (levendo em consideração um vinho de sobremesa mais licoroso). portanto nosso proximo objeto de estudo será o grau alcoolico a procura de outliers e a remoção dos mesmos.
p <- function(..., sep = ''){
paste(..., collapse = sep)
}
fn_Exibir_Dispersao <- function (col, columnName){
print(p('O menor elemento de', columnName, ' é', min(col)))
print(p('O maior elemento de', columnName, ' é', max(col)))
print(p('Variação Populacional de', columnName, 'é', var(col), sep = ' '))
print(p('Desvio padrão de', columnName, 'é', sd(col), sep = ' '))
print(p('A média dos valores de ', columnName, 'é', mean(col), sep = ' '))
print(p('A diferença entre a média e a mediana é de', columnName, 'é', abs(mean(col) - sd(col)), sep = ' '))
}
Parece que existem elementos que nos levam a crer que de fato não são condizentes com o minimo de teor alcoolico existente para vinhos iremos analisar melhor as observações onde o teor alcoolico é menor que 6º
Olhando a tabela percebmos que existem 4 observações para vinho tinto que nos parecem ser erros de digitação iremos criar a partir deste momento um novo data frame para trabalhar a limpeza dos dados preservando o original por questões de segurança e em seguida imprimiremos os graficos novamente para a variavel grau alcoolico
vinhos_ajustado <- subset(vinhos, grau_alcolico > 6)
grafico_lista <- vector("list", length = 2)
grafico_lista[[1]] <- plot_ly(x = vinhos_ajustado$grau_alcolico, type = 'histogram', name = 'Histograma - Grau Alcoolico')
grafico_lista[[2]] <- plot_ly(y = vinhos_ajustado$grau_alcolico, type = "box", name = 'Teor Alcoolico')
subplot(grafico_lista, nrows = 1)
NA
Após a remoção do erro na coluna grau_alcoolico os dados se demosntraram melhores dispostos no entanto ainda há indicios que existam outliers que devem ser melhor analisados
O comando aplicado para todos atributos abaixo exibição dos box-plot abaixo foi:
boxplot(Column_Name, col=“slategray2”, pch=19)
mtext(“Titulo” , cex=0.8, side=1, line=2)
Outliers
Nota se que quase todas as variáveis possuem outliers e para uma melhor acurácia no modelo iremos removê-las da análise. O Metodo mais indicado para remoção dos outliers é amplitude interquartil (IQR - InterQuantile Range) onde: *IQR = Q3(quartil 3) - Q1(quartil 1) Com o IQR calculado é necessário definir o limite inferior e superior que é dado pela seguinte formula:
\[Lim_{Sup} = \bar{X} + 1,5 * IQR\]
\[Lim_{Inf} = \bar{X} - 1,5 * IQR\]
Para elucidar a aplicação do método vamos analisar a variavel “Acidez Fixa” notamos que há muitos valores acima do Q3 a uns poucos abaixo de Q1, Oserve o sumário desta variavel
skim(acidez_fixa)
#dado p25(Q1) = 6.4 e p75(Q3) = 7.7 temos:
IQR_Acidez_Volatil =7.7 - 6.4
#como resultado temos 1.3
#com isso podemos definir os limites superior e inferior do range
LS_acidez_fixa = 7.7 + 1.5 * IQR_Acidez_Volatil
LI_acidez_fixa = 6.4 - (1.5 * IQR_Acidez_Volatil)
#temos um limite superior de -0.025 e inferior de 0.655 onde as observações acima ou abaixo desses fatores serão consideradas outilers
#com base nos limites encontrados farei um sub set do conjunto origi nal de dados levando em consideracao os limites encontrados
Vinhos_Normalizado <-filter(vinhos, acidez_fixa >= LI_acidez_fixa & acidez_fixa <= LS_acidez_fixa)
#comparando os resultados
par(mfrow=c(1,2), oma = c(1,1,0,0) + 0.1, mar = c(3,3,1,1) + 0.1)
boxplot(acidez_fixa, col="slategray2", pch=19)
mtext("Antes" , cex=0.8, side=1, line=2)
boxplot(Vinhos_Normalizado$acidez_fixa, col="slategray2", pch=19)
mtext("Depois" , cex=0.8, side=1, line=2)
De modo que a remoção dos outliers fez com que a distribuição dos dados ficasse mais homogênea como demonstro nos histrogramas a seguir
#comparando os resultados
par(mfrow=c(1,2), oma = c(1,1,0,0) + 0.1, mar = c(3,3,1,1) + 0.1)
hist(acidez_fixa, col="slategray2", main = "")
mtext("Antes" , cex=0.8, side=1, line=2)
hist(Vinhos_Normalizado$acidez_fixa, col="slategray2", main = "")
mtext("Depois" , cex=0.8, side=1, line=2)
Para automatizar o processo de analise e remoção dos outliers criamos uma função para executar essa tarefa, e segue:
Examinando os dados pos limpeza dos outliers
---
title: "ANALISE DO DATASET WINE QUALITY"
output:
  word_document: default
  pdf_document: default
---

###  **"Conceitos Estatísticos para IA"**  
####  *Prof. Adelaide Alves de Oliveira*

<br/>

* TURMA: FIAP-06IA
  + EDUARDO MORARES
  + EDUARDO SIQUEIRA DE LIMA
  + GABRIEL SHIKAMA
  + RICARDO KALIMANIS

<br/><br/>
Inicicalmente vamos instalar os pacotes, caso seja necessário, que serão usados no decorrer da análise
```{r}

#ignorando alertas para não poluir a exibição do markdwon
options(warn =-1)

#lista de pacotes que iremos utilizar no projeto
Pacotes_Necessarios <- c("ggplot2","readr","dplyr", "corrgram","corrplot", "plotly","skimr","gridExtra","GGally","gmodels")

#com base nos pacotes instalados crio uma variavel somente com os pacotes que não temos ainda para realizar a instalação 
#dos pacotes que de fato não possuimos
PacotesNovos <- Pacotes_Necessarios[!(Pacotes_Necessarios %in% installed.packages()[,"Package"])]
if(length(PacotesNovos)){ install.packages(PacotesNovos)} else {print("Todos os Pacotes Estão Instalados")}

```



Carregando todas as as Bibliotecas mencionadas no passo anterior
```{r, results="hide"}
lapply(Pacotes_Necessarios, require, character.only = TRUE)
```



Importando os Datasets de Wines Quality.


#### Lista DE - PARA das colunas



Nome no Arquivo     |  Nome Traduzido
----------------    |-----------------
ID                  |ID (que não sera utilizado)
fixed acidity       |acidez_fixa
volatile acidity    |acidez_volatil
citric acid         |acido_citrico	
residual sugar      |acucar_residual
chlorides           |cloretos
free sulfur dioxide |fsd
total sulfur dioxide|tsd
density             |densidade
pH                  |PH
sulphates           |sulfatos
alcohol             |grau_alcolico
quality             |qualidade
Vinho               |Tipo


```{r, results="hide"}

#Criando uma variável nome_colunas que receberá os nomes das colunas que normalizaremos a fim de facilitar o resto da análise
nome_colunas <- c("id","acidez_fixa","acidez_volatil","acido_citrico","acucar_residual","cloretos", "fsd", "tsd","densidade","PH", "sulfatos","grau_alcolico","qualidade","tipo")

#uso da biblioteca readr é para obter uma performance de carga melhor que a lib padrão do R
#e escolhemos o read_csv2 justamente pelo fato do arquivo estar separado por ; ao invés de ,
#o separador decimal também não é o . que é convencional e este comando ja os converte facilmente
#skip = 1 para ignorar o cabecalho que mudamos para melhor entendimento
vinhos <- read_csv2("./DataSets/BaseWine_Red_e_White.csv" ,col_names = nome_colunas, skip = 1)


```


Adicionando uma classificação de bom ou ruim de acordo com sua nota, onde menor que 5 é ruim até 7 bom e acima disso excelente

```{r}

#converte tipo paara fator
vinhos$tipo <- factor(vinhos$tipo, ordered = T)

#Criando uma coluna de Ranking para dizer o quão bom é o vinho
vinhos$rating <- factor(ifelse(vinhos$qualidade <= 5, 'Ruim', ifelse(vinhos$qualidade <= 7, 'Bom', 'Excelente')))

```



Exibindo os dados das dimensões, sumário, estrutura e as primeiras linhas do DataFrame Vinhos

```{r ,results="hide"}

attach(vinhos)

```

```{r}
#demonstrando as quantidades de dimensoes de ambos datasets

dim(vinhos)
skim(vinhos[, names(vinhos) != "id"] ) #retirando a coluna ID da análise
str(vinhos)
head (vinhos,3)

```

Observa-se que:

* O campo `acucar_residual` e `fsd` possuem um desvio padrão acima das demais variaveis
* A maioria dos histogramas apresenta uma distribuição normal entretanto não centralizado o que pode indicar a presença de outliers



### Verificando valores nulos

```{r}

sapply(vinhos, function(x)all(is.na(x)))

```


O resultado acima nos descreve que não há presença de nulos na base, isto é indicado pelo retorno `FALSE` em cada variável


```{r}

Rotulos_Colunas <-c("id","acidez_fixa","acidez volatil"	,"acido citrico","acucar residual","cloretos","fsd","tsd","densidade",			
                    "PH","sulfatos","grau alcolico","qualidade","tipo")

grafico_lista <- vector("list", length = length(Rotulos_Colunas)-2)

for(i in 2:13){
  grafico_lista[[i-1]] <- plot_ly(x = as.formula(vinhos[i]),   type = 'histogram', name = Rotulos_Colunas[i])
}  
subplot(grafico_lista,  nrows = 4)

```



Podemos observar que apesar do desenho ser similar à uma distribuição normal, isso se deu pois mais à esquerda exceto grau alcoolico, que se sabe
que não há vinhos com teor alcoolico abaixo de 6.5% (levendo em consideração um vinho de sobremesa mais licoroso). portanto nosso proximo objeto de
estudo será o grau alcoolico a procura de outliers e a remoção dos mesmos.


```{r }
p <- function(..., sep = ''){
  paste(..., collapse = sep)
}

fn_Exibir_Dispersao <- function (col, columnName){
  print(p('O menor elemento de', columnName, ' é', min(col)))
  print(p('O maior elemento de', columnName, ' é', max(col)))
  print(p('Variação Populacional de', columnName, 'é', var(col), sep = ' '))
  print(p('Desvio padrão de', columnName, 'é', sd(col), sep = ' '))
  print(p('A média dos valores de ', columnName, 'é', mean(col), sep = ' '))
  print(p('A diferença entre a média e a mediana é de', columnName, 'é', abs(mean(col) - sd(col)), sep = ' '))
}
```


```{r}

fn_Exibir_Dispersao(vinhos$grau_alcolico, 'Teor Alcoolico')

plot_ly(y = grau_alcolico, type = "box", name = 'Teor Alcoolico') 


```


Parece que existem elementos que nos levam a crer que de fato não são condizentes com o minimo de teor alcoolico existente para vinhos
iremos analisar melhor as observações onde o teor alcoolico é menor que 6º
``` {r}

subset(vinhos, grau_alcolico <6)

````


Olhando a tabela percebmos que existem 4 observações para vinho tinto que nos parecem ser erros de digitação iremos criar a partir deste momento um novo
data frame para trabalhar a limpeza dos dados preservando o original por questões de segurança e em seguida imprimiremos os graficos novamente para a variavel grau alcoolico


``` {r}

vinhos_ajustado <- subset(vinhos, grau_alcolico > 6)

grafico_lista <- vector("list", length = 2)

grafico_lista[[1]] <-  plot_ly(x = vinhos_ajustado$grau_alcolico, type = 'histogram', name = 'Histograma')
grafico_lista[[2]] <-  plot_ly(y = vinhos_ajustado$grau_alcolico, type = "box", name = 'Teor Alcoolico')

subplot(grafico_lista,  nrows = 1)

````

Após a remoção do erro na coluna `grau_alcoolico` os dados se demosntraram melhores dispostos no entanto ainda há indicios que existam outliers que devem 
ser melhor analisados


O comando aplicado para todos atributos abaixo exibição dos box-plot abaixo foi: <br />

> *boxplot(Column_Name, col="slategray2", pch=19) *  <br />
> *mtext("Titulo" , cex=0.8, side=1, line=2)*

```{r, , echo=FALSE}

par(mfrow=c(1,6), oma = c(1,1,0,0) + 0.1,  mar = c(3,3,1,1) + 0.1)
  boxplot(acidez_fixa, col="slategray2", pch=19)
  mtext("Acidez Fixa" , cex=0.8, side=1, line=2)
  boxplot(acidez_volatil, col="slategray2", pch=19)
  mtext("Acidez Volatil", cex=0.8, side=1, line=2)
  boxplot(acido_citrico, col="slategray2", pch=19)
  mtext("acido_citrico", cex=0.8, side=1, line=2)
  boxplot(acucar_residual, col="slategray2", pch=19)
  mtext("acucar_residual", cex=0.8, side=1, line=2)
  boxplot(cloretos, col="slategray2", pch=19)
  mtext("cloretos", cex=0.8, side=1, line=2)
  boxplot(fsd, col="slategray2", pch=19)
  mtext("fsd", cex=0.8, side=1, line=2)
  

```



```{r, , echo=FALSE}

par(mfrow=c(1,5), oma = c(1,1,0,0) + 0.1,  mar = c(3,3,1,1) + 0.1)
  boxplot(tsd, col="slategray2", pch=19)
  mtext("tsd" , cex=0.8, side=1, line=2)
  boxplot(densidade, col="slategray2", pch=19)
  mtext("densidade", cex=0.8, side=1, line=2)
  boxplot(PH, col="slategray2", pch=19)
  mtext("PH", cex=0.8, side=1, line=2)
  boxplot(sulfatos, col="slategray2", pch=19)
  mtext("sulfatos", cex=0.8, side=1, line=2)
  boxplot(grau_alcolico, col="slategray2", pch=19)
  mtext("grau_alcolico", cex=0.8, side=1, line=2)
  
```

### **Outliers**

Nota se que quase  todas as variáveis possuem outliers e para uma melhor acurácia no modelo iremos removê-las da análise.
O Metodo mais indicado para remoção dos outliers é amplitude interquartil (IQR - InterQuantile Range) onde:
  *IQR  = Q3(quartil 3) - Q1(quartil 1)
Com o IQR calculado é necessário definir o limite inferior e superior que é dado pela seguinte formula:

  $$Lim_{Sup} = \bar{X} + 1,5  * IQR$$
  
  $$Lim_{Inf} = \bar{X} - 1,5  * IQR$$

Para elucidar a aplicação do método vamos analisar a variavel **"Acidez Fixa"** notamos que há muitos valores acima do Q3 a uns poucos abaixo de Q1, Oserve o sumário desta variavel

```{r }

  skim(acidez_fixa)

  #dado p25(Q1) = 6.4 e p75(Q3) = 7.7 temos:
  IQR_Acidez_Volatil =7.7 - 6.4
  
  #como resultado temos 1.3 
  #com isso podemos definir os limites superior e inferior do range
  
  LS_acidez_fixa = 7.7 +  1.5 * IQR_Acidez_Volatil
  LI_acidez_fixa = 6.4 - (1.5 * IQR_Acidez_Volatil)
  
  #temos um limite superior de -0.025 e inferior de 0.655 onde as observações acima ou abaixo desses fatores serão consideradas outilers
  #com base nos limites encontrados farei um sub set do conjunto origi nal de dados levando em consideracao os limites encontrados
  Vinhos_Normalizado <-filter(vinhos, acidez_fixa >= LI_acidez_fixa & acidez_fixa <= LS_acidez_fixa)
  
  #comparando os resultados
  par(mfrow=c(1,2), oma = c(1,1,0,0) + 0.1,  mar = c(3,3,1,1) + 0.1)
    boxplot(acidez_fixa, col="slategray2", pch=19)
    mtext("Antes" , cex=0.8, side=1, line=2)
    boxplot(Vinhos_Normalizado$acidez_fixa, col="slategray2", pch=19)
    mtext("Depois" , cex=0.8, side=1, line=2)

```

De modo que a remoção dos outliers fez com que a distribuição dos dados ficasse mais homogênea como demonstro nos histrogramas a seguir

```{r }

  #comparando os resultados
  par(mfrow=c(1,2), oma = c(1,1,0,0) + 0.1,  mar = c(3,3,1,1) + 0.1)
    hist(acidez_fixa, col="slategray2", main = "")
    mtext("Antes" , cex=0.8, side=1, line=2)
    hist(Vinhos_Normalizado$acidez_fixa, col="slategray2", main = "")
    mtext("Depois" , cex=0.8, side=1, line=2)

```


Para automatizar o processo de analise e remoção dos outliers criamos uma função para executar essa tarefa, e segue:

```{r , results="hide"}




#criando uma funcao para remover os outliers das colunas 
remove_outliers <- function(x, na.rm = TRUE, ...) {
  qnt <- quantile(x, probs=c(.25, .75), na.rm = na.rm, ...)
  H <- 1.5 * IQR(x, na.rm = na.rm)
  y <- x
  y[x < (qnt[1] - H)] <- NA
  y[x > (qnt[2] + H)] <- NA
  y
}

vinhos$acidez_fixa <- remove_outliers(acidez_fixa, T)
vinhos$acidez_volatil <- remove_outliers(acidez_volatil)
vinhos$acido_citrico <- remove_outliers(acido_citrico, T)
vinhos$acucar_residual <- remove_outliers(acucar_residual, T)
vinhos$cloretos <- remove_outliers(cloretos, T)
vinhos$fsd <- remove_outliers(fsd, T)
vinhos$tsd <- remove_outliers(tsd, T)
vinhos$densidade <- remove_outliers(densidade, T)
vinhos$PH <- remove_outliers(PH, T)
vinhos$sulfatos <- remove_outliers(sulfatos, T)
vinhos$grau_alcolico <- remove_outliers(grau_alcolico, T)
vinhos$qualidade <- remove_outliers(qualidade, T)

```

Examinando os dados pos limpeza dos outliers

```{r}



  
```
